스 0 ㅁ 00 ㅁ 알 고 리 즘 에 의한 연관 단어 지식 베 이 스 에 기반한 
가 중 치 가 부 여 된 베이지안 자동 문서 분류 


+ 


요 약 


기 존 의 베이지안 문서 분 류 를 위한 단어 군집 방 법 은 많은 시 간 과 노 력 을 요 구 하 며 , 단어 간의 의미 관 계 를 
정확하게 반 영 하 지 못하는 문 제 점 이 있다. 본 논 문 에서는 마이닝 기 법 으로 구 축 된 연관 단어 지식 베 이 스 를 
기 반 으로 하는 베이지안 문서 분류 방 법 을 제 안 한 다. 제 안 된 베이지안 문서 분류 방 법 은 문 서 를 분 류 하기 
전에 훈련 문 서 를 사 용 하여 가 중 치 가 부 여 된 연관 단어 지식 베 이 스 를 구 축 한다. 그 다 음 으로, 베이지안 확 률 을 
이용하는 분 류 자는 구 축 된 연관 단어 지식 베 이 스 를 기 반 으로 문 서 를 클 래 스 별로 분 류 한다. 제 안 된 방 법 의 
성 농 을 평 가 하 기 위해, 상호 정보 계 산 에 의한 단어 사 전 을 이용한 가 중 치 가 부 여 된 베이지안 문서 분류 방범, 
가 중 치 가 부 여 된 베이지안 분류 방법, 기 존 의 단순 베이지안 분류 방 법 과 비 교 하 였다. 그 결과, 연관 단어 
지식 베 이 스 에 기반한 가 중 치 가 부 여 된 베이지안 분류 방 법 이 상호 정 보 에 의한 단어 사 전 을 이용하는 가중치 
가 부 여 된 베이지안 분류 방 법 보다는 0.87% , 가 중 치 가 부 여 된 베이지안 분류 방 법 보다는 277% , 단순 베이지 
안 방 법 보다는 5.09% 높은 성능 차 이 를 보였다. 


\6190160 20565100 스 4[0108040 100014146801 (2316800 ㅁ 28000 88560 00 
스 6600180600 \070 ㅁ 0\16086 13896 6 ㅅ 000 ㅁ 스 1800002 


6, 800404109. 800 Ｌ ㄴ 66, 94119\40 、 


28976601 


17116 12076\10048 2205651310 000410064 0866801128000 1060100 1185 20 ㅠ 01)16005 04104 1 1001411656 8 106 아 12006 
3100 61[0 다 10 \060 이 49667210@ 800 + 14867017 161160[8 416 960080 ㅁ ㅇ 1010710081 ㅁ 100 106[\664 \0108. 10 14118 0806, 
16 0700086 82 \010111(60 220766130 0001410160Ｌ[ 081680112108 1004100 [62560 00 85500100010 1\010 1000\160806 
1856 80041160 605 70010108@ 1601101046. 116 0 ㅠ 0700860 10064100 0008[7401[5 \601011160 8560018010 ㅁ 0 \010 10101\16086 
15896 49108 00041006066 10 17010108 566. 11160, 이 86618167 49108 1309565100 07010010116 08668071206 0004106101[5 
13960 070 1416 00081740660 8560018000 1\010 1000\16086 60856. 10 00067 10 67814816 106 다 0108006 0 1076 
20000560 1060100, \6 002000876 041" 60600160681 7664166 \141 01056 0 1\6191160 2020565180 00041060 
08668002108 2060100 45108 70080418177 010000817 07 1041481 11[010081000, \61811160 138768180 ㅁ 0000410060[ 
086680012108 1060000, 300 51200216 28765180 0001410601 0216801712108 10604100. [116 6× ㅁ 061107601281 7681416 5110\5 
타 \61860 2097651890 ㅇ 8668002108 프 러 400 46108 85600180100 1\00 1000\16086 16856 1186 107070760 
26 다 070049006 0.879% 300 2.779% 800 5.09096 0767 \60100[60 207681870 08668002108 0060100 45108 7008041077 
에 600008197 69 0041481 11107008000 800 \610811660 28769181 0 ㅁ 164100 800 5100016 205765180 0060100, 76606001761. 


1. 서 론 정보 검 색 을 효 율 적 으로 하기 위하여 웹 문 서 를 자동 
으로 분 류 하려는 여러 방 법 이 연 구 되어 왔 다 [17]. 문 

인 터 넷 의 인 기 가 높 아 지 면서 웹 문 서 와 이를 사용 서희 자동 분 류 에 대한 기 존 의 연 구 는 확 률 을 이용한 
하는 사 람 들 의 수가 점차로 증 가 되 었다. 이에 따라 방 법 [9,14], 통 계 적 인 기 법 을 이용한 방 법 [3.6], 벡터 
" 정회원, 인 하 대 학교 대학원 전 자 계 산 공학과 가 사 도 른 이 르 히 들: 애 뷔 비 리 이 트 로 퍼 으 하든 
"" 인 하 대 학교 전 자 계 산 학과 교수 방 범 [15] 등 이 있다. 이들 중에서 확 률 을 이 용 하 여 학 
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습 하 는 문서 분류 방 법 이 가장 많이 연 구 되었으며, 
이 방 법 은 일반적인 문서 집 함에 대해 높은 분류 효 
을 나타내고 있 다 [141 


끌 개 식 서다 알 고 리 즘 에 의한 연관 단어 
지식 베 이 스 의 카 테 고 리 를 기 반 으 로 문 서 를 분 류 하 
에비 베이지안 문서 0 나으 제안 


문 서 에 6 모든 단 어 에 대해서 추 정 치 를 게 산하 
이를 바 탕 으로 분 류 를 수 행 하였기 때문에 문 서 의 
특 징 을 정확히 로 오 간 이 어렵고, 많은 잡 음 들의 영향 


티 8 


기 


으로 문 서 를 오 분 류 하게 된다. 이를 개 선 한 가 중 치 가 
부 여 된 베이지안 문서 분류 방 범 [18 은 각 문서 내의 
모든 단 어 를 특 정 으로 사 용 하는 것이 아니라 문서 


 ` 단 어 에 대해 가 중 치 를 계 산 하고 가 중 치 가 높은 
추 출 한 다 . 또한 추 출 된 단 어 의 수 
' 작을 경우 상호 정 보 를 이용한 단어 군 집 으로 특 
징 에 사용될 단 어 의 수 를 증 가 시킨다. 제 안 된 방 법 은 
기 존 의 떼 2106 822568 에 의한 분 류 보 다는 정 확 도 를 
높 였 으나 특 징 으로 추 출 된 단 어 가 단어 간의 의미 
관 계 를 반 영 하지 못 하 므로 단 어 의 의미 중 의 성 문제 
를 해 결 하 지 못 하 였다. 이를 해 결 하기 위해, 본 논문 
에서 제안한 특징 추출 방 법 은 마이닝 기 법 이 다 [161. 
마이닝 기 법 은 단어 간의 의미 관 계 가 고 려 되 도록 


문 서 로 부터 연관 단 어 를 추 출 한 다. 

본 논 문 에서 제안한 베이지안 문서 분류 방 법 은 
문 서 를 분 류 하 기 위해 먼저 연관 단어 지식 베 이 
구 축 한다. 다 음 으로, 이러한 0 비이 이지 때 연 


치를 부 부 여 한 다. 마 지 막 으 로, 지 2176 8 류 자 는 
가 중 치 가 부 여 된 연관 단어 지식 베 이 스 의 클 래 스 의 
하나로 문 서 를 분 류 한다. 이러한 방 법 으 로 제 안 된 방 
법 의 성 능 을 평 가 하기 위해, 상호 정보 계 산 에 의한 
단어 사 전 을 이용한 가 중 치 가 부 여 된 베이지안 문서 
분류 방법, 가 중 치 가 부 여 된 베이지안 분류 방법, 기 
존 의 단순 베이지안 분류 방 법 과 비 교 하 였다. 


2. 관련 연구 


2.1 문서 분류 

텍스트 문 서 의 분 류 를 위한 대 부 분 의 연 구 [7,11] 는 
페 8106 28565 분 류 자 라고 불리는 변 형 된 베 이시이 
분 류 법 을 사 용 하 였다. }680417514] 은 베이지안 분 


자를 사 용 하여 06 뉴스 이야 분 류 를 시 도 하여, 
그 결 과 로 89% 의 분류 
였다. 1308!8] 은 순 위 화 된 기 사 를 학습 집 합 으로 사 
용하여 사 용 자 가 관 심 이 있는 기 사 를 예 측 함 을 보였 
다. 또한, Ｌ6\18[10] 는 \4270701[12] 이 사용한 통 계 적 인 
방 법 을 이용하는 텍스트 분류 방 법 과 베이지안 분류 
식 을 사 용 하여 606605-22173 집 합 에 대해 분 류 를 실 
험한 결과, 베이지안 분 류 식 을 에이 분류 방 법 에 서 
더 좋은 분류 효 율 을 얻을 수 있 음 을 보였다. 

[0(;311410114] 은 기 존 의 떠 3176 83565 가 정 을 사 
용 한 연 구 들을 크게 두 가 지 의 형 태 로 분 류 하여 비교 
하고, 그들의 성 능 을 실 험 을 통하여 비 교 하 였다. 첫 
번째 형 태 는 문서 내의 단 어 들의 발 생 과 비 발 생 만을 
고 려 하여 문 서 를 분 류 하 는 방 법 으로, 일 반 적 으로 이 
진 독립 모 델 (814307” 100606006006 ]400681) 이 라 칭 
하거나 특별히 문서 분 류 에 있어서 다중 이형 베 르 눌 
리 모 델 (/[4104-?311066 86000411 \40061) 이 라고도 한 
다. 두 번째 형 태 는 문서 내의 단 어 의 발 생 과 비 발 생 
뿐만 아니라 해당 단 어 의 출현 빈 도 까 지 고 려 하는 
방 법 으 로 일 반 적 으 로 다항 모 델 (0741040070181 10061) 
이라 부른다. \4608100 은 위 의 두 가지 연 구 를 토대 
로 웹 문 서 , 유즈넷 기사, 64165 이이 호오 
함 하는 다섯 개의 문서 집 합 에 대해 두 가지 분 
방 법 을 적 용 하여 분류 효 율 을 비 교 하 였다. 그 이구 
다항 모 델 이 다중 이형 베 르 룰 리 모 델 에 비해 평균 
27% 의 에 러 가. 감 소 됨을 보였다. 

본 논 문 에서는 학습 문 서 들 로부터 사전 확률 값 을 
계 산 하기 위해 단 어 의 발생 여 부 를 사 용 하는 방 법 이 
아닌 단 어 의 출현 빈 도 를 고 려 하는 다 항 (20241000- 
7048!) 베이지안 학 습 법 을 사 용 한 다 [131 


2.2 61011 알고리즘 


연관 규 칙 은 한 항 목 들 의 그 룹 과 다른 항 목 들 

그룹 간에 강한 연 관 성 이 있 음 을 밝혀 준다. 예 를 들 
면 , 소 매 점 에 서 각 고 객 이 구 매 하는 물 품 들의 집 합 을 
한 트 랜 잭 션 이 라 하고, 이런 트 랜 잭 션 들을 일정한 기 
간 동 안 저 장 한 것을 데 이 터 베 이 스 라 하면, 기 저 귀 를 
사는 사 람 은 맥 주 를 구 매 한 다는 것을 규 칙 으로 표현 
하면, 기 저 귀 => 맥 주 [10% 의 56400041] 와 같이 표현할 

수 있다. 여기서 10% 의 지 지 도 (6400010 라 는 것은 주 
어진 데 이 터 베 이 스 의 트 랜 잭 션 ( 고 객 들 ) 중에서 102% 
가 기 저 귀 와 맥 주 를 동시에 산다는 것이고, 80% 의 
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신 뢰 도 (60016『76000) 라 는 것은 기 저 귀 를 사는 고객들 
중에서 80% 가 맥 주 를 산다는 것이다. 연관 규칙 탐 
사 에 서는 사 용 자 가 지 지 도 와 신 뢰 도 의 값 을 적 절 하 
게 입 력 함 으로써 이미 발생한 트 랜 잭 션 들 에서 물품 
들 상호 간의 연 관 성 을 발 견 해 낼 수 있 다 [1]. 

연관 규칙 마이닝 알 고 리 즘 인 42000 ㅁ 는 구 매 하 는 
물 품 들 의 집 합 인 트 랜 잭 션 으 로부터 연관 규 칙 을 마 
이 닝 한다. 연관 규 칙 은 두 단 계 를 통하여 구 성 된 다 
[2]. 첫번째 단 계 는 최 소 의 지 지 도 (010_5400010 이 
상의 발생 지 지 도 ( ㅠ 80 ㅁ 580000 54020011) 를 가지는 조 
합 을 찾아 빈발 단어 항 목 을 구 성 한 다 . 두번째 단계 
는 데 이 터 베 이 스 로 부터 연관 규 칙 을 생 성 하 기 위하 
여 빈발 항목 집 합 을 사 용 한 다 . 모든 빈발 항목 집합 
(Ｌ) 에 대해서 빈발 항목 집 합 의 모든 공 집 합 이 아닌 
부 분 집 합 들 을 찾는다. 각 각 의 그러한 부 분 집 합 ( ㅅ &) 에 
대하여, 만약 94000( 쇼 ) 에 대한 94000 ㅁ (Ｌ/ 의 비율 
이 적어도 최소 신 뢰 도 (010_00041670006) 이 상 이면, 
4->(Ｌ- ㅅ ) 희 형 태 의 규 칙 을 출 력 한 다. 이 규 칙 의 지 
지 도 는 94000) 이 고, 신 뢰 도 는 6400070)/540- 
200 나 ( 쇼 ) 이 다. 40000 알 고 리 즘 에서 후 보 집 합의 생 
성은 40000-060 을 사 용 하여 새로운 후 보 집 합 을 만 
들게 함으로써, 후 보 항 목 의 수 를 줄일 수 있다. 이에 
따라 연관 규 칙 을 찾는 시 간 이 감 소 된다. 연관 규칙 
을 찾는 40000 알 고 리 즘 은 그림 1 과 같다. 


111={(10066 1-116005666};  // 빈 발 항 목 올 구성 
00 (=21101 <> 0; ++) 00 16600 
2.=40000-860(Ｌ-1); // 새로운 후 보 항목 
“0391 1 ㅁ 8086800008 Ｌ 으 10 00 1068 퍼 
(3.=640966(@2010;// 에 포 함 된 후 보 항 목 
10131] 09800108665 0 00 
0.0040 하 가; 
600 
트 {6 트 2016.0042+ > ㅋ = 0070..900000} // 최소 
지지도 이상의 항 목 의 조 합 올 추출 
00 
스 ㅁ 6\60501040 


그림 1. 연관 규 칙 을 찾는 4010! 알고리즘 


3. 연관 단어 지식 베 이 스 에 기반한 베이지안 
자동 문서 분류 


기 위해 형태소 분 석 을 통한 명사 추출 과 정 을 전처 
리 과 정 으로 사 용 한 다 . 전처리 과 정 을 통하여 추 출 된 
명 사 들을 대 상 으로 연관 단 어 를 마 이 닝 함으로써 각 
문 서 를 연관 단 어 들의 집합, 즉 연관 단어 벡터 모델 
로 나타낸다. 

전처리 과 정 의 형태소 분 석 이란 하나 또는 둘 이 
상의 형 태 소 로 이루어진 단 어 에 대하여 단 어 를 이루 
고 있는 형 태 소 를 분 리 한 후에 형 태 론 적 변 형 이 일어 
난 형 태 소 의 원 형 을 복 원 하 고 사 전 과 단어 사 이 의 
통합 관 계 에 대해 옮 은 분석 후 보 를 선 택 하는 과 정 으 
로 구 성 된 다. 연관 단어 벡터 모 델 은 형태소 분 석 의 
복잡한 부 분 인 파 싱 (6875108) 을 통한 의미 분 석 을 생 
략 하고 추 출 된 명 사 만을 사 용 한 다. 

그림 1 의 47000 알 고 리 즘 은 형태소 분 석 에 의해 
추 출 된 명 사 들 로 부터 연관 단 어 를 마 이 닝 한다. 그 결 
과, 문 서 는 ((\11&\12&'……@&\1061-0-> 바 1207), (\01 & 
\22611&\202-1)->\2627, 11 ,(\0\26@6\00610-^ 
\00,''17(\ 글 @\026@…@\666-1)->\660)) 형 태 의 연관 
단어 벡터 모 델 로 표 현 된 다. 여기서, (\0&1\1606@…' 
소 \ 쩌 001)->1\00 동의 형 태 는 연관 단 어 를 나타낸다. 
이러한 형태 안의 “&" 기 호 는 단 어 와 단 어 가 연 관 되 
었 음 을 나타내는 기 호 이다. 또한, {\21.\101\8060-0… 
\. 가 는 연관 단 어 를 구 성 하 는 단 어 들의 구 성 이며, 
30 은 연관 단 어 를 구 성 하는 단 어 의 수 이 고 , 0 는 문서 
대 표 하 는 연관 단 어 의 수 이 다. 


때 


3.2 연관 단어 지식 베 이 스 을 위한 연관 단 어 의 마 

이닝 

그림 1 의 46002 알 고 리 즘 은 데이터 마이닝 기법 
을 이 용 하 여 단어 간의 연관 규 칙 을 마 이 닝 한다. 이 
경우, 사 용 되 는 데 이 터 베 이 스 는 문 서 의 이 름 과 문서 
에서 추 출 된 명 사 들 로 구 성 되 는 데 , 알 고 리 즘 에 사용 
되는 빈발 단어 항 목 과 후보 단어 항 목 은 문 서 를 대 
상 으 로 형태소 분 석 을 통해 추 출 된 명 사 이다. 

문 서 에서 추 출 된 명 사 를 40101101 알 고 리 즘 에 적용 
하여 연관 단어 쌍 을 구 성 하기 위해서는 신 뢰 도 와 
지 지 도 를 결 정 해야 한다. 2.2 절 에서 기 술 한 바와 같 
이 신 뢰 도 와 지 지 도 를 어떻게 지 정 하는 가 에 따라 
마 이 닝 되는 연관 규 칙 의 수 와 내 용 에서는 많은 차이 
를 보인다. 따라서, 연관 단어 지식 베 이 스 를 구 축 하 
기에 적합한 신 뢰 도 와 지 지 도 를 지 정 해 야 만 지식 베 
이 스 에 포함될 연관 단 어 가 적 합 하 게 마 이 닝 된 다. 
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신 뢰 도 를 결 정 하 기 위한 식 (1) 은 단 어 가 한 문서 내 
에서 공 기 한 정 보 를 나타낸다. 


(207/06706070700(407->1427=207(102 11077 (1) 


그림 2 는 100 개 의 문 서 를 대 상 으로 신 뢰 도 를 다양 
하게 변 화 시켰을 때, 마 이 닝 되 는 연관 단 어 에 대한 
정 확 도 와 재 현 율 을 나타낸다. 마 이 닝 된 결 과 에 대해 
재 현 율 과 정 확 도 를 평 가 하는 기 준 은 영어 단 어 에 대 
한 시 소 러 스 인 \070 써 하 을 사 용 하 여 평 가 하 였다. 단 
어 들을 의 미 에 따라 영어 단 어 로 번 역 하 여 \070 씨 이 
으로 서로 비 교 하였을 때, 다른 단 어 들 과 의 미 가 유 
사 하 지 않은 단 어 들 로 연관 단 어 가 구 성 되었을 경우 
오 류 로 처 리 했다. 


너 쑤 에 % (이고 
옹 


0 10 20 30 40 50 60 70 80 90 10 
신뢰도 


그림 2. 신 뢰 도 의 변 화 에 따른 재 현 율 과 정확도 


위 의 그 림 은 신 뢰 도 가 클수록 마 이 닝 되 는 연관 단 
어 의 정 확 도 는 높 아 지 나 재 현 율 은 낮 아 짐을 나타낸 
다. 그러나 85 이 상의 신 뢰 도 에 서는 재 현 율 이 거의 일 
정하고 정 확 도 는 높은 수 치 를 나타낸다. 따라서 가장 
적합한 연관 단 어 를 마 이 닝 하 기 위해서는 신 뢰 도 를 
85 이 상 으 로 지 정 해 야 한다. 

지 지 도 를 결 정 하 기 위한 식 (2) 은 전체 단 어 들의 
쌍 중에 각 연관 단 어 의 출현 빈 도 를 나타낸다. 지지 
도가 크 다 면 빈 도 수 는 작으나 중요한 연관 단 어 가 
생 략 될 수 있고, ( 기 본 & 방 식 & 이 용 & 지 정 => 실 행 } 과 
같이 빈 도 수 는 높지만 중 요 하지 않은 연관 단 어 가 
마 이 닝 된다. 

속 4920207/7(0402->14027=207(102 (44027 (2) 

그림 3 은 100 개 의 문 서 를 대 상 으로 지 지 도 를 다양 
하게 변 경 시 킴 에 따른 정 확 도 와 재 현 율 의 변 화 를 나 
타 낸다. 마 이 닝 된 결 과 에 대해 재 현 율 과 정 확 도 를 평 


0 쑤 예 8 떼고 
기 


0 10 20 30 40 50 60 70 80 90 100 
지지도 


그림 3. 지 지 도 의 변 화 에 따른 재 현 율 과 정확도 


가하는 기 준 은 신 뢰 도 와 같이 영어 단 어 에 대한 시소 
러 스 인 \070 써 하 을 사 용 하여 평 가 하였다. 

정 확 도 와 재 현 율 의 곡 선 이 일 치 하는 지 점 은 지지 
도가 22 인 경 우 로 , 이 지 점 에서 가장 적합한 연관 단 
어가 마 이 닝 된다. 그러나, 지 지 도 가 22 이 상인 경 우 에 
는 정 확 도 와 재 현 율 이 모두 낮아진다. 따라서 가장 
신뢰할 만한 연관 단 어 를 추 출 하 기 위해서는 22 이 하 
의 지 지 도 를 지 정 해 야 한다. 그러나 지 지 도 를 0 으 로 
한다면 클 래 스 와 관 계 가 없는 문 서 에 서 연관 단 어 가 
추 출 되므로 0 보 다 크 도 록 설 정 하 여야 한다. 

클 래 스 별로 마 이 닝 된 연관 단 어 는 연관 단어 지식 
베 이 스 에 저 장 된 다. 연관 단어 지식 베 이 스 는 {00255,, 
00952. …00059720.…,00055//) 의 클 래 스 로 구 성 되며, {0255/, 
이 2993.…,00295)2…00059,} 는 연관 단어 지식 베 이 스 의 
클 래 스 의 레 이 블 을 의 미 한 다. 각 클 래 스 는 같은 구조 
를 갖기 때문에 그림 4 에 서는 0/25570 의 구 조 만을 보 
인다. 그럼 4 에 서 {(\ 고 @\026@'…@&\0(000-10-^\000) 
에서 은 각 클 래 스 에 마 이 닝 된 연관 단 어 들 의 총 
수 를 의 미 하며, 002 은 하 나 의 연관 단 어 를 구 성 하기 
위한 단 어 의 수 를 의 미 한다. 여기서, ㅁ 의 값 은 클 
스 마 다 다르게 지 정 될 수 있다. 그러한 이 유 는 같은 


02957 (\11&\12&………&\161-1)->\1017, 
(\216 바 22616\2(62-1)-^\2027, 


(\0@&\26@''@&\6001)0-^\100, 


(\1\026" …\ 요 (00-1) 그 >\0000} 


그림 4. 연관 단어 지식 베 이 스 의 구조 
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훈련 문 서 를 대 상 으 로 40101 알 고 리 즘 을 실 행 한 결 
과, 마 이 닝 된 연관 단 어 의 수 는 다르게 나타나기 때 
문 이 다. 또한 30 도 연관 단 어 에 따라 다른 값 을 보인 
다. 훈련 문 서 의 내 용 이 다르기 때문에 연관 단 어 를 
구 성 하는 단 어 의 수 는 각기 다른 값 을 갖는다. 


3.3 480106 ㅁ 8865 학 습 에 의한 가중치 부여 


지 6146 88765 알 고 리 즘 은 학습 단 계 와 분류 단계 
를 통하여 문 서 를 분 류 할 수 있다. 학습 단 계 에 서는 
0004 알 고 리 즘 에 의해 구 축 된 연관 단어 지식 베 
이 스 의 연관 단 어 에 가 중 치 를 부 여 한 다. 가 중 치 를 부 
여 하 기 위해서 우선 가 중 치 롤 부 여 하기 위한 훈련 
문 서 를 수 집 한 다. 구성된 훈련 문 서 로부터 3.2 절 에서 
설명한 방 법 으로 연관 단 어 를 마 이 닝 한 다. 마 이 닝 된 
연관 단 어 는 다른 문 서 에 나타난 연관 단 어 에 관 계 없 
이 독 립 적 이라고 가 정 한다. 이러한 가 정 에 서 지식 베 
이 스 의 0025572 에 있는 번째 연관 단어 (\&1\06 
…&\00011=>1\000 로 가 중 치 를 부 여 하기 위해서 
식 (3) 을 이용한다. 본 논 문 에 서는 6005572 에 있는 번 
째 연관 단어 (\0&\62@&'…&\00-1)->1\\00 의 가중치 
는 보 ((\0\2&\0-10-^\00010009572) 로 , 05572 
에 서 의 (\04@&\6&1\06-1=>1\100 출현 확 롤로 표현 
한다. 여기서, 은 훈련 문 서 의 101 번 째 부터 200 번 까 
지의 문 서 로부터 마 이 닝 된 연관 단 어 의 전체 수 이 고, 
때는 전체 개수 ㅁ 중에서 지식 베 이 스 에 있는 연관 
단어 (\04&\02&'…&\6061=>1\\\00 와 일 치 하는 연 
관 단 어 의 수 이 다. 또한, 005500 는 연관 단어 지식 
베 이 스 에 있는 클 래 스 의 레 이 블 이며, |\6| 는 클 
래 스 별로 분 류 된 훈련 문 서 의 첫 번째 문 서 로부터 
100 개 까지 구성된 문 서 로부터 마 이 닝 된 연관 단 어 를 
대 상 으로 구 축 된 연관 단어 지식 베 이 스 에 있는 전체 
연관 단 어 의 수 이 다. 식 (3) 의 분 모 에는 훈련 문서 
1 부 터 200 번 까 지 의 정 보 를 모두 표 현 함으로써 정확 
도 를 높이기 위하여 |4\2| 을 부 가 하 였다. 또한 분 
자 에 는 0, 에 1 을 더하여 확 률 이 0 이 되는 것을 예방 
하였다. 


+ 
26 시 & 허 로 기 으 헤이 기 게 기 00069 = 게 시 00066) 02 (3) ' 


학습 과 정 은 누적 단 계 와 가중치 부여 단 계 로 나 
눈 다. 누적 단 계 에 서는 훈련 문 서 에 있는 연관 단어 
가 지식 베이스 안에 있는 경우 횟 수 를 누 적 시킨다. 
가중치 부여 단 계 에 서는 누적 단 계 의 결 과 를 식 (3) 


에 적 용 하여 지식 베 이 스 의 연관 단 어 에 가중치 
부 여 한 다. 이러한 과 정 을 통해, 지식 베 이 스 의 연 긴 
단 어 에 가 중 치 가 추 가 된다. 


따 빼 


3.4 48106 8865 분 류 자 에 의한 문서 분류 


분류 단 계 에 서는 가 중 치 가 부 여 된 연관 단어 지식 
베 이 스 를 사 용 하여 제 2176 88965 분 류 자 에 의해 실 
험 문 서 를 클 래 스 로 분 류 한다. 분 류 를 위해 실험 문 
서는 3.1 절 의 방 법 과 같이 11={0(\11&1\12&…''6&\1061-) 
=2~\142,0(\21@\22@…&\2062-1)-^\992/,'1',0(\0@&\060 
소 …&\0-0->\0002,':'0(\@\02…''\60-10->^\ 
00)} 의 연관 단어 형 태 로 표 현 된다. 여기서, 0 는 문서 
를 대 표 하 는 연관 단 어 의 수 이 다. 0 는 실험 문 서 에 
서 추 출 된 연관 단 어 임 을 강 조 하 기 위해 연관 단어 
앞에 추 가 한 것이다. 이러한 이 유 는 실험 문 서 와 훈 
련 문 서 에 서 추 출 된 연관 단 어 의 형 태 가 같기 때문에 
이를 구 별 해 야 하기 때 문 이 다. 이와 같은 형 태 로 연 
관 단 어 가 추 출 되었다면, 식 (4) 의 가 중 치 를 고 려 하 
는 베이지안 분 류 자 를 통해 확 률 값 이 가장 높은 클 
스 (00055) 에 문 서 를 할 당 하게 된다. 식 (4) 는 문 서 에 
서 추 출 된 연관 단 어 들이 클래스 005572 에 포함될 
확 률 의 곱을 나타낸다. 


" 
00059 = 68 2083 ?6607058 20) ,(60,100265 0) 


00055 >, (4 ) 


식 (4) 에 서 문 서 12 가 분 류 될 클 래 스 는 0/255 로 , 전 
체 클 래 스 의 수 는 으로, 가 중 치 가 부 여 된 연관 단어 
지식 베 이 스 의 025572 에 있는 연관 단 어 의 수 는 ㅠ 으 
로 표 현 한 다 . 또한 2((\0&1\6&''&1\(0-1)->1\100 
2259,/) 는 문 서 ㅁ 를 표 현 하는 연관 단 어 가 가 중 치 가 
부 여 된 연관 단어 지식 베 이 스 의 0255/2 에 존재할 
확 률 을 표 현 한 다. /”(0029970) 는 0725572 의 출현 확률 
을 나타낸다. 


4. 전체 시스템 설계 및 베이지안 문서 분 류 의 예 


이 장 에서는 전체 시스템 설 계 도 에 따라 연관 단 
어 지식 베 이 스 를 구 축 하며, 이를 기 반 으로 문 서 를 
분 류 하는 방 법 을 구 체 적 으로 설 명 한 다. 그림 5 는 본 
논 문 에서 설 계 한 베이지안 자동 문서 분 류 를 위한 
스템 구 성 도 를 나타낸다. 


서 
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연관 단어 지식 베이스 


포 구성: 561 태이 
가 플 치 추가 


변 관 단어: 
6 추 0 


101 11.012.003. 


그림 5. 연관 단어 지식 베 이 스 를 기 반 으로 하는 가 중 치 가 부 
여 된 베이지안 분 류 자의 구 성 도 


훈련 문 서 는 한국어 정보 검색 시 스 템 의 성능 평 
가용 데이터 집 합 인 76695 문서 4.414 개 중 1600 개 
의 문 서 로 , 실험 문 서 는 웹 문서 수 집 기 에 의해 컴퓨 
터 분 야 의 1Ｌ 로 부터 수 집 한 800 개 의 웹 문 서 와 
16695 문서 중 800 개 의 문 서 를 병 합 하여 구성한 
다. 훈련 문 서 의 클 래 스 는 수 작 업 으로 전산학 각 연 
구 분 아 의 8 개 클 래 스 로 분 류 하 였다. 훈련 문 서 와 실 
험 문 서 의 실험 대 상 을 다르게 설 정 한 이 유 는 본 논 
문 에 서 제 시 한 방 법 에 대한 정확한 평 가 를 위 함 이다. 
여기서 8 개 의 클 래 스 는 { 게 임 , 그래픽, 뉴 스 와 미디 
어 , 반도체, 보안, 인터넷, 전 자 출판, 하 드 웨 어 } 의 레 
이 블 로 표 현 된다, 이렇게 8 개 의 클 래 스 로 분 류 한 기 
준 은 알 타 비스타, 야후, 한미르 등 의 기 존 의 정보 검 
색 엔 진 이 컴퓨터 분 야 의 주 제 를 대 상 으로 분 류 한 
통 계 에 따른 것이다. 따라서 각 클 래 스 에 200 개 의 문 
서가 훈련 문 서 로 할 당 된다. 6605 문서 중 정의 
된 클 래 스 에 해 당 하지 않는 문 서 들은 사 용 하지 않았 


표 2. 클 래 스 별로 마 이 닝 된 연관 단어 


선 행 단 어 ( ㅅ 066060601) 


표 1. 형태소 분 석 에 의해 추 출 된 명 사 의 예 

형태소 분석 결과 추 출 된 명 사 들 
게임, 경고, 인가, 사용자, 이벤트, 참 가 .… 
멀티미디어, 출판사, 컴퓨터, 인테리어, 활용 


인터넷, 날씨, 방송, 신문, 환경, 오 염 ,.… 


구축, 설계, 창업, 기술, 산업, 메 모 리 ,… 
해킹, 접근, 발표, 정보, 활동, 인 공 지능... 
네트워크, 컴퓨터, 정 보 , 교 환 , 프 로 토 콜 .… 
서점, 결 제 시 스템, 출판, 기획, 제작, 내용... 
하드웨어 | 메 인 보 드 , 하드웨어, 하 드 디 스크, 모 니 터 .… 


다. 그림 5 의 훈련 문 서 에서 (4001, 000 2,… ,000 다는 
훈 련 을 위해 클 래 스 로 분 류 한 문 서 를 의 미 한 다. 한 
클 래 스 에 200 개 의 문 서 가 속하게 되므로, (는 200 의 
값 을 나타낸다. {2 ㅁ 1, 2, ㅁ 3,…/} 은 문서 000 [를 대 
상 으 로 형태소 분 석 한 결과 추 출 된 명 사 를 의 미 한다. 


4.2 연관 단어 지식 베 이 스 의 구축 

연관 단어 지석 베 이 스 를 구 축 하기 위한 전처리 
과 정 으로서 훈련 문서 중 각 클 래 스 별로 첫 번 째 부터 
100 개 까 지 의 문 서 를 대 상 으로 형태소 분 석 을 한다. 
그 결과, 표 1 과 같은 형 태 의 명 사 를 추 출 할 수 있다. 

0001 알 고 리 즘 은 표 1 과 같이 추 출 된 명 사 로 부 
터 연관 단 어 를 마 이 닝 한 다. 그 결 과 는 표 2 와 같은 
형 태 로 나타난다. 이러한 자 료 로 구성된 연관 단어 
지식 베 이 스 는 평균 신뢰도 95.3 과 평균 지지도 20.1 
를 나타내며, 총 231 개 의 연관 단 어 를 저 장 한다. 

구 체 적 으로, 표 3 은 연관 단어 지식 베 이 스 의 8 개 
클래스 중 게임 클 래 스 에 마 이 닝 된 연관 단 어 를 보 
인다. 


후 행 단어 평균 신뢰도 | 평 균 지지도 


게 임 &@ 구 성 & 선 수 & 정 기 & 스 포 츠 & 창가 


| (6009604600 
선 발 + 91.309% ㅣ 20.1039% 


방 범 & 중 심 & 제 즈 & / 용 


병 가 88.10% 21.4286% 


ㅠ 스 & 제 3& 홍 오 & 속보 


안 99.9%8 20.28388 


시 스 템 & 사 업 & 활 용 & 기 법 


컬 그 2 96.20% 20.3839% 


세 게 @ 59)6 즌 & 인 꿀 & 조 지 &@ 수법 


해 ㅋㅋ 95.30%6 21.7583% 


컨 텐 츠 &/ 이 프 & 관 2& 쇼 풍 꼼 


왕 94.90% | 19.3838% | 


잉 략 & 편 집 & 출 략 & 걸 러 스 중후 


관 91.3096 18.2129%6 


고 드 @ 주 밴 기 기 & 슬 롯 & 펜 터 잎 


기 기 90.200% 21.263296 
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표 3. 연관 단어 지식 베 이 스 의 연관 단 어 (게임 클래스) 
(1) 게 임 & 구 성 & 선 수 & 경 기 & 스 포 츠 & 참 가 => 선 발 
(2) 국 내 & 최 신 & 기 술 & 설 치 => 개 발 

(3) 게 임 & 참 가 & 인 기 & 사 용 자 & 접 속 => 이 벤트 
(4) 운 영 & 선 발 & 경 기 & 순 위 & 규 칙 => 평 가 

(5) 게 임 & 순 위 & 이 름 => 스 포츠 

(6 ) 운 영 & 스 포 츠 & 위 원 회 & 선 수 => 선 발 

(7) 게 임 & 구 성 & 선 발 & 순 위 => 경 기 

(8) 게 임 & 일 정 & 선 수 & 참 가 & 운 영 => 스 포츠 


(9) 데 이 터 & 암 호 & 통 신 망 => 가 입 


(10) 게 임 & 이 용 & 문 제 => 규 칙 

(11) 그 림 & 인 기 & 서 비 스 => 음 악 
(12) 그 림 & 데 이 터 & 서 비 스 => 엔 진 
(13) 데 이 터 & 프 로 그 램 => 음 악 

(14) 그 럼 & 데 이 터 & 프 로 그 램 => 사 진 
(15) 게 임 & 설 명 & 제 공 => 공 략 

(16) 게 임 & 이 용 & 기 술 => 개 발 

(17) 삭 제 & 게 임 & 개 인 전 => 경 고 
(18) 게 임 & 제 공 & 일 러 스 트 => 설 명 


4.3 단어 지식 베이스 
연관 단어 지식 베 이 스 의 연관 단 어 에 가 중 치 를 
부 여 하기 위 하 여 는 각 클 래 스 의 훈련 문서 중 연관 
단어 지식 베 이 스 를 구 축 하기 위해 사용한 100 개 의 


부 
내 


표 4. 가 중 치 가 부 여 된 연관 단 어 (게임 클래스) 


연관 단어 


문 서 를 제외한 나머지 101 번 째 부터 200 번 까 지 의 100 
개의 문 서 를 사 용 하여야 한다. 40000 알 고 리 즘 은 

클 래 스 의 100 개 의 문 서 를 대 상 으로 신 뢰 도 를 85 로 , 
지 지 도 를 0 으 로 지 정 함 으로써 연관 단 어 를 마 이 닝 할 
수 있다. 마이닝 결과, 40000 알 고 리 즘 은 총 250 개 의 
연관 단 어 를 마 이 닝 하였다. 띠 0176 88765 알고리즘 
은 이러한 결 과 를 식 (3) 에 대 입 함 으로써 연관 단어 
지식 베 이 스 의 연관 단 어 에 가 중 치 를 추 가 한 다. 표 
4 는 연관 단어 지식 베 이 스 의 게임 클 래 스 (60557) 에 
나타난 연관 단 어 에 가 중 치 가 추 가 된 결 과 를 보인다. 


4.4 43146 88685 분 류 자 에 의한 문 서 의 분류 


지 8146 22565 분 류 자 는 웹 문 서 수 집 기 에 의해 추 
출 된 문 서 와 《766095 의 800 개 의 문 서 로 구성된 실 
험 문 서 를 식 (4) 를 이 용 하 여 가 중 치 가 부 여 된 연관 
단어 지식 베 이 스 의 클 래 스 의 하나로 분 류 한 다. 표 
5 는 지 3176 23765 분 류 자가 실험 문 서 를 분 류 하 는 
예 를 보인다. 이 예 에 서 , 실험 문 서 는 {# 임 & 콩 가 & 
인 기 &/ 공 &@ 접 속 => 이 반 드 , 도 페인 59) 트 위 그 &@ 
계 중 =>. 호 스트 레 이 시 & 인 크 젯 & 플 로 라 -> 프 린 5 가 
임 & 이 공 & 기 줄 => 개 발 운 영 & 선 불 & 경 기 & 순 유 &4 


가중치 


임 & 구 성 & 선 수 & 경 2& 스 포 츠 & 참 기 => 선불 


0.09375 


국 내 & 고신 기 술 & 설 치 => 개 받 


0.012712 


게 임 & 찾기 인기 / 용 지 & 점 속 => 이벤트 


0.100386 


운 영 & 선 불 & 경 기 & 순위 ㅠ 치 => 평가 


0.016878 


겠 임 & 순 위 & / 큼 => 스 포츠 


0.089494 


운 영 & 스 포 츠 & 유 원 회 & 산 수 => 선발 


0.100386 


겠 일 & 구 성 & 선 불 & 순 위 => 경기 
게 잉 & 일 종 & 전 수 & 창 기 & 운 영 -> 스포츠 
페 이 러 & 안 호 & 통 신 팡 => 가 잎 


0.086614 
0.093023 
0.008511 


제 인 & 이 용 & 문 제 -> 규 차 


0.085938 


그 림 & 인 2& 서 비 스 => 음악 


0.008547 


그 륨 &2 이 터 &@ 서 비 스 => 엔진 


0.017021 


2&@ 프 로 그 람 => 음악 


0.021186 


그 륨 &8& 프 로 그 량 => 사 진 


0.026316 


※ 임 & 설 평 & 제 3=> 주르 


0.096154 


게 임 & 9/ 공 & 기 술 => 개발 


0.100386 


숙 제 & 제 임 & 개 인 전 => 경고 


0.100775 


게 임 & 제 궁 & 일 러 스 픈 => 설명 


0.085603 
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표 5. 48106 8865 분 류 자 에 의해 분 류 된 실험 문서 


개 원 & 참 기 & 인 기 & 사 용 /& 정 속 => 이 썬 트 


도 메 인 49/ 트 워크 자 충 -> 호스트 


6 가 개 제 거 


래 이 저 & 인 크 젯 & 픔 로 터 => 프 린 타 


때 


겠 입 & 9/ 공 & 기 술 => 개불 


2(0025957207 06 


가 중 치 글 0.0522 


ㅠ 즉 => 붕가 } 의 연관 단 어 로 구 성 된 다 . 46146 8220568 
분 류 자는 실험 문 서 를 대 표 하는 연관 단 어 의 가중치 
를 찾기 위해 연관 단어 지식 베 이 스 를 참 조 한 다 . 이 
러한 결 과 를 식 (4) 에 대 입 함으로써 실험 문 서 를 연 

관 단어 지식 베 이 스 의 클 래 스 로 분 류 할 수 있다. 결 
과 적 으로, 표 5 에 서는 실험 문 서 가 0055; 의 게임 클 
래 스 로 분 류 됨을 보인다. 


5. 성능 평가 


본 논 문 에서는 제 안 된 연관 단어 지식 베 이 스 를 
기 반 으로 하는 가 중 치 가 부 여 된 베이지안 문서 분류 
방 법 (\1883568190-\8) 의 성 능 을 평 가 하 기 위해, 
기 존 의 단순 베이지안 확 률 을 사용한 방 법 (835768- 
180), 가 중 치 가 부 여 된 베이지안 분류 방 법 (\8356- 
9880), 상호 정보 계 산 에 의해 구 축 한 단어 사 전 을 기반 
으로 하는 베이지안 문서 분류 방 법 (\ ㅁ 88765180- 
1) 과 비 교 하였다. 이를 평 가 하기 위한 훈련 문 서 는 
766[95 에 있는 1600 개 의 문 서 로 구 성 하 고, 실험 문 
서는 웹 문서 수 집 기 에 의해 컴퓨터 분 야 의 4 ㅁ 7Ｌ 로 부 
터 수 집 된 800 개 의 웹 문 서 와 1766[95 에 있는 800 개 
의 문 서 를 병 합 하 여 구 성 한 다. 01《Ｌ 은 알 타 비스타, 
야후 등 의 기 존 의 정보 검색 엔 진 이 분 류 한 카테고리 
를 기 준 으로 선 택 한 다. 또한 ]1'66[95 으 로부터 선택 
할 실험 문 서 는 클 래 스 별로 분 류 된 학습 문 서 에 있는 
문 서 를 선 택 한 다. 분류 성 능 을 평 가 하기 위해서 각 
클 래 스 로 분 류 된 문 서 를 대 상 으로 표 6 과 같은 분할 
표 를 기 한 다 [5]. 

분 류 의 측 정 은 식 (5) 의 『-10685416 측 정 식 을 이 
용 한다. 식 (5) 에 서 『 는 정확도, 은 재 현 율 을 어이 
며 , 이 경우 ㅠ -0685476 의 값 이 클수록 분 류 가 우 
함 을 의 미 한 다. 여기서, 6 는 정 확 도 에 대한 가이 


그 
( 웹 문 서 : 기 존 의 정보 검색 

엔 진 에 의한 분류 
766695: 학 습 문 서 로부터 추출) 


의 상대적인 가 중 치 를 나타내는 


수 치 로, 1.0 일 경우 
정 확 도 와 재 현 율 의 가 중 치 가 같다. 


61+088 = 10068= 그 100 
022+ 0+6 (5) 
본 실 험 에 서는 6 의 값 을 1.0 로 설 정 하여 분류 결 
과 를 분 석 하 였으며, 또한 6 의 값 을 0.5 에 서 1.4 로 변 
화 시키면서 -0068546 의 결과 차 이 를 살 펴 보 았다. 
표 7 은 정 확 도 와 재 현 을 을 식 (5) 에 대 입 하 여 분 석 한 
결 과 를 나타낸다. 
그림 6 과 그림 7 은 표 7 의 결 과 를 바 탕 으로 한 재현 
율 과 정 확 도 의 성능 곡 선 을 나타낸다. 그림 7 에 서는 
\026965180- 스 \ 방 법 의 재 현 율 이 \108765180- 
\1 방 법 보다 0.44%, \13769130 방 법 보다는 2.59%, 
1286769131 방 법 보다는 3.32% 높 음 을 나타낸다. 
그럼 7 에 서는 \[85685180-^\ 3 방 법 의 정확도 
가 \128765190-\) 방 법 보다 2.84%, \883769197 방 
법 보다는 4.46%, ㅁ 23769130 방 법 보다는 8.61% 높 음 을 
나타낸다. 
그림 8 에 서 4 =1.0 일 경우, \/ ㅁ 285691300-^\1Ｌ0 방 
법 은 \835768180-\) 방 법 보다 1.63%, \35651200 
방 법 보다는 352%, 887691327 방 법 보 다는 5.59% 높음 
을 나타낸다. 


서 00510= 
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표 7. \068+65180-4400<6, \0/8867651010-'\70, \608765181, 887051811 의 성능 비교표 


\4025765130-2\3 \38568190-'\ ㅠ 0 \082568130 02766130 


정확도 |『-10688416| 재 현 을 | 정확도 |『-07689416 정확도 |『-00685416| 재 현 율 | 정확도 |『"-100686146@ 
(098) ㅣ (%) (%) (%) 


87.16 | 87.16 87.16 
89.58 ㅣ 86.00 87.76 


= 28060 00 \835066100-512 ~ \ 22765070-^\ 튜 8 - ㅡ ㅜㅜ '\22765100-720 
\23566100 ㅁ - ㅡ -280576600 0 0000 | 000 | 애 애 듀 22569 00000 아아아 
92% 
90% 
88% 수 
9 86% 아 
앤  84% 개 
욱  82% 
80% 디 
78% 은 
76% 
ㅣ 2 3 4 5 6 7 나 1 2 3 4 5 6 7 8 
클래스 클래스 


르 - 의한 클 래 스 별 문서 분류 성능 평 7 
그림 6. \68866981-&0\<8, \8916619001-40, '\/83768- 그림 8. 『-「10854「@ 에 의한 클 래 스 별 문서 분류 평가 


1900, 887 ㅠ 605190 방 법 의 문서 분류 재 현 율 


= \ 001 65100-\680 - ㅡ ----\20765100-50 
다 ~ 나 537051270 20765100 ㅁ 
~ \7'02766500-\8 0 - ㅡ - \0076600-02 니 너 
\22076520 - ㅡ -82765100 100 
100% 2 
~ -----2 = 
비 80% _ 저 
와: 70% 띠 60 
72 
60% 50 
1 | 3 4 5 6 7 8 9 10 
50% 
1 2 3 4 5 6 ?7 8 베타 
클래스 그림 9. 6 의 변 화 에 따른 『-108546 에 의한 클 래 스 별 문서 


분류 성능 평가 

그림 7. \(/(8816518-&\< ㅁ 8, \/886165160-\0, \0880- 
65190, ㅁ 8865191 방 법 의 문서 분류 정확도 스 \63 방 범 뿐 아니라 \20876980-\13 방 법과 \88- 

그림 9 는 @ 값 을 0.5 에 서 1.4 로 변 화 시 킴 에 따른 765132 방 법도 6 값 이 변 할 지 라도 『-70685076 의 값 
-0068581416 의 성능 분 석 을 나타낸다. \138768180- 은 일정한 값 을 유 지 하 므로 재 현 율 과 정 확 도 의 면 에 
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서 비슷한 성 능 을 나타낸다. 시 28565137 방 법 은 
정 확 도 보다는 재 현 율 에서 더 높은 성 능 을 나타낸다. 
평 균 적 으로, 아이아스 이이 \02766190- 
방 법 보다 0.87%, \69569132 방 법 보 다는 2.77%, 
1289069132 방 법 보다는 5.09% 높은 성능 차 이 를 보였다. 

전체적으로 가 중 치 를 부여한 연관 단어 지식 베이 
스나 상호 정보 계 산 에 의한 단어 사 전 을 사용한 분 
류 방 법 이 가 중 치 만 부여한 방 법 이나 단순 베이지안 

분류 방 법 보 다는 성 능 이 우 수 함 을 알 수 있다. 특히, 


연관 단어 지식 베 이 스 를 기 반 으로 하는 가 중 치 가 
부 여 된 베이지안 분류 방 법 은 가장 성 능 이 우 수 함 을 
나타냈다. 
6. 결 론 

본 논 문 에서는 기 존 의 베이지안 문서 분류 방 법 의 


점 을 해 결 하기 위해, 45001 알 고 리 즘 에 의한 연 
단어 지식 베 이 스 를 기 반 으 로 하는 가 중 치 가 부여 
된 베이지안 문서 분류 방 법 을 제 안 하였다. 
본 논 문 에서 제안한 방 법 은 두 가 지 의 장 점 을 갖 
는다. 첫 째 는 43176 ㅁ 23565 분 류 자가 정확한 분 류 를 
가 능 하 도록 연관 단어 지식 베 이 스 를 구 축 했다는 것 
이다, 둘 째 는 실험 문 서 를 연관 단 어 의 집 합 으로 표 
현 함으로써 단어 의미 중 의 성 이라는 문 제 를 해 결 한 
점 이 다. 본 . 논 문 에서는 제 안 된 분류 방 법 의 성 능 을 
평 가 하기 위해, 기 존 의 단순 베이지안 분류 방법, 가 
중 치 가 부 혀 된 베이지안 분류 방법, 상호 정보 계산 
에 의한 단어 사 전 을 이용한 가 중 치 가 부 여 된 베이지 
분류 방 법 과 비 교 하 였다. 그 결과, 본 논 문 에 
서 제 안 된 방 법 이 상호 정보 계 산 에 의한 단어 사전 
을 이용하는 가 중 치 가 부 여 된 베이지안 분류 방 법 보 
다는 0.87% , 가 중 치 가 부 여 된 베이지안 분류 방 법 보 
다는 2.77%, 단순 베이지안 방 법 보다는 5.09% 높은 
성능 차 이 를 보였다. 
향후, 문 서 의 특 징 을 단순 명 사 가 아닌 복합 명사 
로 추 출 하여 연관 단어 지식 베 이 스 를 기 반 으로 하는 
베이지안 문서 분류 방 법 에 적 용 한 다면 문서 분 류 의 
성 능 이 보다 높아질 것이다. 
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